AI系统可以在决策过程中创建,传播,支持和自动化偏见。为了减轻偏见的决策,我们俩都需要了解偏见的起源,并定义算法做出公平决定的含义。大多数群体公平概念通过计算输出上的统计指标来评估模型的结果平等。我们认为,这些输出指标会遇到内在障碍,并提出了一种互补的方法,该方法与对治疗平等的关注度的越来越多。通过通过规范逆设计(Lucid)找到不公平性,我们生成一个规范集,该集合显示了给定优选输出的模型所需的输入。该规范集揭示了模型的内部逻辑,并通过反复询问决策过程来暴露潜在的不道德偏见。我们评估了UCI成人和Compas数据集的LUCID,发现规范集检测到的一些偏见与输出指标的偏见不同。结果表明,通过将重点转移到治疗平等并研究算法的内部工作原理中,规范集是对算法公平评估工具箱的宝贵补充。
translated by 谷歌翻译